「目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!」というタイトルでCM re:Growth 2024 OSAKAに登壇しました #regrowth_osaka
データ事業本部 インテグレーション部 機械学習チームの鈴木です。
AWS re:Invent ふりかえり勉強会「クラスメソッド re:Growth 2024 大阪」にて次世代のSageMakerについてご紹介しましたのでご共有です。
ありがたいことに今年もJapan AWS Top Engineersに選出して頂いており、「Japan AWS Top Engineers Advent Calendar 2024」の12日目の記事としての投稿にもなります。
登壇した資料
以下の資料を発表しました。
Amazon SageMakerというとこれまでは機械学習モデルを開発・運用するような機械学習特化のサービスでしたが、今回発表された次世代のAmazon SageMakerはその枠を超えたデータによる素早いビジネス展開・ソリューション構築を可能にするものとなっています。
とはいえ、これまでAmazon SageMakerやAWSのデータ分析系サービスを使っていないとなかなかピンと来にくいところでもあるので、どのようなアップデートがAWSのデータ活用の枠組みとして進化したのか個人的に理解した内容を紹介しました。
ポイント
次世代のAmazon SageMakerについて
今回のre:Inventのキーノートで、次世代のAmazon SageMakerが発表されましたが、上記の通り機械学習サービスの域にとどまらず、データによる素早いビジネス展開・ソリューション構築を可能にするデータ分析系サービスの側面が強くなりました。
現時点の機能を具体的な構成要素として書くと、以下くらいになると理解しています。
- Amazon SageMaker Unified Studio
- Unified Studio
- Unified Studioドメイン
- Amazon SageMaker Lakehouse
- データソースの論理的な入れ物となるカタログ
- LakeFormationによるきめ細かなアクセス制御
- データレイクとデータウェアハウス双方にアクセスしデータ統合できるApache Iceberg API
- Zero-ETLによる運用システム内のデータの、レイクハウスへのリアルタイム連携
- Amazon Athenaのフェデレーテットクエリによる様々なデータソースからのデータ取得
特定のサービスを指すというよりは、サービスを組み合わせたソリューションのような立ち位置といえるかなと思います。
なお、コンソールからはAmazon SageMaker platformとAmazon SageMaker AIにアクセスできます。Amazon SageMaker AIはこれまでの機械学習サービスとして提供されていたAmazon SageMakerにアクセスできます。Amazon SageMaker platformからはUnified Studioの機能が利用できます。
AWS Glue Iceberg REST Catalogエンドポイントの提供
各所にあるデータをレイクハウスに統合して利用できるようにしました、という点は比較的分かりやすいメリットですが、個人的に推したいのはAWS Glue Iceberg REST Catalogエンドポイントの提供です。
SageMaker Lakehouseではこのエンドポイントを使い、レイクハウス内のデータをクライアントから消費することができます。その際、使用するIAMに対してLakeFormation側できめ細かにアクセス制御できるため、LakeFormationというデータに関するセキュリティ層を通したAPI提供が簡単に実現できます。
なお、このAPIの利用例は、以下のAWSブログで紹介されています。
Unified Studioの提供
また、大きなアップデートとして、Amazon SageMaker Unified Studioも提供されました。
先ほど記載したように、Amazon SageMaker platformから利用できる機能になります。利用する際にはまずAmazon SageMaker Unified Studioドメインを作成し、Unified Studioにアクセスします。
Unified Studioからはいくつかの目的に合わせたプロジェクトを作成できます。現状、プロジェクトは3つありますが、ストリーミングやBIなど今後追加されていくようです。
プロジェクトはプレビュー段階の現在で以下の3つから作成できました。
作成するとRedshift Serverless関連リソース・Glueデータベース・Athenaワークグループ・CodeCommitレポジトリなどプロジェクトに必要なリソースが自動で作成されます。
Unified Studioからクエリエディタ・Jupyterノートブック・ビジュアルETLなど様々な機能を使ってデータの分析・アプリケーションの開発を行うことができます。
Unified Studioの機能についてはAWSブログで複数の記事が公開されているため、ご確認ください。
最後に
re:Invent2024で次世代のSageMakerとして発表されたSageMaker LakehouseとUnified Studio(プレビュー)の紹介でした。
データ周りのアーキテクチャについて詳しくないとなかなかピンときづらいアップデートかもしれませんが、とてもアツいアップデートなので、ぜひ機能を見ていただければと思います。